CES上的惊喜AI硬件!199美元、真正的AI助手rabbit r1,可以帮用户操作任意app
这款设备可以让用户在不需要手机的情况下很便携完成很多任务:叫车、放歌、订餐、订酒店,甚至直接帮用户 PS 修图或者 Midjourney 上生成图片。
Rabbit(曾用名 Cyber Manufacture)此前完成由 Synergis Capital 和硅谷知名风险投资人 Vinod Khosla 投资的种子轮融资。联合创始人及 CEO 吕骋(Jesse Lyu)是一位连续创业者。在 2020 年共同创立 Cyber Manufacture 之前,他曾是渡鸦科技(Raven Tech)的创始人及 CEO,该公司于 2017 年被百度收购。
文章编译自The Verge、Wired的报道,Founder Park 有所增删。
01
一个几乎全能的 AI 助理
Rabbit r1 是一个橙色的方形设备,大小约为 iPhone 的一半,外观设计是由 rabbit 公司与设计公司 Teenage Engineering 合作设计。配备 2.88 英寸的的触摸屏、用于拍摄照片和视频的旋转摄像头,以及用于导航或与设备内置助手交谈的滚轮/按钮。
配置参数:2.3GHz 联发科处理器、4GB 内存和 128GB 存储空间,官方宣称续航可以持续一整天。售价 199 美元,3 月份开始发货。
右侧有一个模拟滚轮。滚轮上方是一个可以 360 度旋转的相机。它被称为「兔子眼」(Rabbit Eye)——不使用时,可以把相机朝上或朝下,事实上这也是个隐私快门——你可以把它用作自拍或后置摄像头。虽然您可以使用 Rabbit Eye 进行视频通话,但它并不能像传统智能手机摄像头那样使用。
右边是一个一键通按钮,您可以按住发出语音命令,还有一个 4G LTE SIM 卡插槽(竟然不是 5G)用于进行网络连接,这意味着它不需要与任何其他设备配对。
官方介绍中,这款设备不是要取代手机,无法拿来来观看电影或玩游戏。
相反,它旨在帮助用户从琐碎的任务中解脱。吕骋将其比作将手机交给私人助理以完成任务。例如,它可以为用户呼叫 Uber。只需按住一键通按钮,然后说:「帮我打一辆优步去帝国大厦。r1 将需要几秒钟来解析请求,然后它会在屏幕上显示显示票价和其他详细信息,然后开始叫车。这个过程在各种类别中都是相同的,无论是想在餐厅预订、预订机票、将歌曲添加到 Spotify 播放列表等等。
R1 没有任何内置 app。它也不会连接到任何应用程序的 API,没有插件,也没有代理帐户。同样,它不需要与智能手机配对。
Rabbit 的操作系统,称为 Rabbit OS,在实际操作中更像是中间中转层,用户可以通过 rabbit 的网站 Rabbit Hole 的网页进行绑定 app 的操作,你可以在网站登录 OpenTable、Uber、Spotify、Doordash 和 Amazon 等服务上的帐户,授予 Rabbit OS 代表用户在连接的帐户上执行操作的能力
Rabbit 声称它不存储第三方服务的任何用户凭据。此外,所有身份验证都发生在第三方服务的登录系统上,用户可以随时自由取消链接 Rabbit OS 的访问并删除任何存储的数据。
同样,由于 r1 使用一键通按钮(如对讲机)来触发语音命令提示符,没有唤醒词,因此 r1 不必像大多数流行的语音助手那样不断倾听您的声音。设备上的麦克风仅在您点击该按钮时激活和录制音频。
02
大模型与硬件结合的新尝试
Rabbit 表示,Rabbit OS 不是类似 ChatGPT 的大语言模型,而是基于「大动作模型(Large Action Model)」,可以简单理解为一种 app 的通用控制器。「我们想找到一个通用的解决方案,就像大型语言模型一样,」他说。「我们如何才能找到一个通用的解决方案来实际触发我们的服务,无论你是网站还是应用程序,或者任何平台或桌面?」
某种意义上,这是一个类似于 Alexa 或 Google Assistant 的想法。Rabbit OS 可以通过一个界面控制音乐播放、订购商品、购买杂货、发送消息等等。无需打开或者登录 app。只需询问想要什么,然后让设备交付。
不过,Rabbit 并没有构建一堆 API 并试图说服开发人员支持 r1,而是训练了如何使用现有应用程序的模型。后端使用大语言模型(由 OpenAI 的 ChatGPT 提供支持)和 Rabbit 开发的大动作模型的组合来理解用户的意图。大动作模型(LAM)是由与 Spotify 和 Uber 等应用程序交互的人类所训练,人类向模型展示了这些 app 的工作方式。这些 LAM 通过演示来学习——它们观察人类如何通过移动、桌面或云界面执行任务,然后自行复制该任务。该公司已经为最流行的 app 提前进行了训练,吕骋说,所有这些流程都可以应用于任何地方的任何应用程序。
LAM的演示
R1 还有一个专用的训练模式,你可以用它来教设备如何做某事,它能够自行重复这个动作。吕骋举了一个例子:「你会说,'嘿,首先,去一个叫做 Photoshop 的软件。打开。在这里获取您的照片。在水印上做套索,然后单击,单击,然后单击,然后单击。这就是你去除水印的方式。吕骋说,Rabbit OS 需要 30 秒才能处理完毕,然后它可以自动删除所有水印。
Rabbit 的方法非常聪明。即使是科技巨头,让开发者都支持新的操作系统是很困难的,而 LAM 的方式是仅仅通过教模型如何使用应用程序来颠覆这一点。当下,我们看到一大批新的人工智能硬件进入市场,但很多时候,这些工具所做的只是连接到 ChatGPT。相比之下,Rabbit 更像是一个超级应用程序——一个单一的界面,你可以通过它做任何事情。
R1 的设计更像是我们在过去一年中看到的 Ai Agent,即在网站和应用程序等普通用户界面上训练的机器学习模型。因此,他们不能通过一些专用的 API 订购披萨,而是通过与人类相同的方式:通过单击普通 Web 或移动应用程序上的普通按钮来完成。
对于 Rabbit OS 来说,它和应用商店的关系,或许正如同 ChatGPT 之于搜索。
「我们不是想杀死你的手机,」首席执行官兼创始人吕骋在 CES 展前与记者的沟通中说到。「手机是一种娱乐设备,但如果你想完成一些事情,它不是效率最高的机器。为了安排与同事共进晚餐,我们需要四到五个不同的应用程序来协同工作。大型语言模型是自然语言的通用解决方案,我们希望为这些服务提供通用解决方案——它们应该能够理解你。
03
取代 Ai Pin 还是会被大公司取代
根据 Rabbit 首席执行官吕骋的说法,r1 的愿景是语音助手、屏幕和摄像头的结合。吕骋表示,它更有可能与 Humane 的 AI Pin 等设备竞争,而不是 iPhone。与 r1 相比,像 Alexa 等智能助手已经过时了。
归根结底,最大的问题不是 rabbit r1 是否成功地完成了它的销售目标,而是在面对极其强大的竞争时,这种方法是否可行。
谷歌、苹果、Microsoft、OpenAI、Anthropic、亚马逊、Meta——他们中的每一个每天都在努力创造更强大的 AI 产品。Rabbit 最大的危险不是没有人会买它,而是在六个月内,一家价值千亿美元的公司制造了自己的 AI Agent,可以完成 r1 80% 的工作,并且可以在手机上免费使用。
Rabbit 这家公司只有 17 名员工,规模并不大。
「我们当然很担心,」他回答说,「我们是一家初创公司。但仅仅因为这些大公司能做到这一点并不意味着我们需要停下来。
他指出,尽管这些公司拥有丰富的资源,但他们缺乏初创公司的敏捷性,这些初创公司今天正在搭建自己的内容,以及数据。他指出,大语言模型本身是基于一个开放的配方——五篇论文,仅此而已。几乎没有机会在那里建立护城河。但 Rabbit 的 LAM 是建立在专有数据之上的,可以在非常特定的设备上提供非常具体的用户体验。